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(57) Abstract 

The invention relates to a method for signalling a noise substitution during audio signal coding. According to said method, the audio 
signal is first transfoimed in the frequency range to obtain spectral values. The specnal values are subsequently grouped to form spectral 
value groups. On the basis of a detection whether a group of spectral values is a noise group at not, a coding table is allocated to a 
non-noise group or a tonal group by means of a codmg table number for redundancy coding of the same. If a group is a noise group it 
is allocated an additional coding table number which does not refer to a coding table in order to signal that diis group is a noise group 
and that it must not be redundaiicy coded. By signalling noise substitution by means of a Huffman-code table number for noise groups 
of spectral values which are for instance scale factor band sections and which must not be redundancy coded, an opportunity is provided 
for implementing availability of a noise substitution in a scale factor band in the bit flow syntax of die MPEG-2 Advanced Audio coding 
Standard, without Intervening in the basic coding structure and without having to touch the structure of the existing bit flow syntax. 

(57) Zusammenfossung 



Bei einem Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals wird das zeitliche Audiosignal 
zuerst in den Fiequenzbereich transfomiiert, urn Spektralwerte zu eihalten. Die Spektralweite werden anschlieBend in Gruppen von 
Spektralwerten grappiert. Aufgiund einer Erfassung. ob eine Gruppe von Spektralweiten eine rauschhafte Gnsgpt ist oder nicht. 
wird einer nicht-rauschhaften oder tonalen Gruppe mittels emer Codieitabellennummer erne Codieitabelle zum Redundanz-Codieren 
derselben zugewieseo. Falls eine Gruppe rauschhaft ist, wuxl derselben eine zusatzliche Codieitabellennummer zugewiesen, die nicht 
auf eine Codiertabelle verweist. um zu signalisieren, daS diese Gruppe rauschhaft ist und daher nicht rcdundanz-<odiert werden muB. 
Durch Signalisieren der Rauschsubstitution duicb eine Huffinan-Codieitabellennummer fOr rauschhafte Giuppen von Spektralweiten, die 
Z.B. Abschnitte aus Skalenfaktoibandem sind, welche nicht redundanz-codiert werden massen, ist eine M6giichkeit implementiert, das 
Vorhandensein einer Rauschsubstitution in einem Skalenfaktorband in der Bitstromsyntax des Standaids MPEG-2 Advanced Audio Coding 
(AAQ zu implementieren. ohne da0 in die grundsatzliche Codiererstruktur eingegriffen werden muB, und ohne dafi die Stniktur der 
bestehenden Bitstromsyntax angetastet werden mtiB. 
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Verfahren zum Signalisieren einer Rausohsubstitution bela 
Codieren eines Audiosignals 



Beschreibuna 



Die vorliegende Erfindung bezieht sich auf Audiocodierver- 
fahren und insbesondere auf Audiocodierverfahren nach dem 
Standard ISO/MPEG, wie 2. B. MPEG-1, MPEG-2, MPEG-2 MlC, zur 
datenreduzierten Darstellung von hochqualitativen Audio- 
signalen. 

Der Standardisierungskorper ISO/IEC JTC1/SC29/WG11, der auch 
als die Moving Pictures Expert Group (MPEG) bekannt ist, 
wurde 1988 gegriindet, um digitale Video- und Audiocodier- 
ungsschemen ftir niedrige Datenraten zu spezif izieren. Im 
November 1992 wurde die erste Spezif ikationsphase durch den 
Standard MPEG-l vollendet. Das Audiocodiersystem nach 
MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in 
einem Einkanal- Oder Zweilcanalstereo-Modus bei Abtastfre- 
quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-l 
Layer II liefert Rundfunkqualitat, wie sie durch die Inter- 
national Telecommimication Union spezif iziert ist, bei einer 
Datenrate von 128 kb/s pro Kanal. 

In seiner zweiten Entwicklungsphase bestanden die Ziele von 
MPEG darin, eine Mehrkanalerweitervmg fUr MPEG-l-Audio zu 
definieren, die zur existierenden MPEG-l-Systemen rttckwSrts- 
kompatibel sein sollte, und ebenfalls einen Audiocodier- 
standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz, 
24 kHz) als bei MPEG-1 zu definieren. Der rtickwartskompa- 
tible Standard (MPEG-2 BC) sowie der Standard mit niedri- 
geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994 
vollendet. MPEG-2 BC liefert eine gute AudioqualitSt bei 
Datenraten von 640 - 896 kb/s fttr 5 KanSle mit voller Band- 
breite. Seit 1994 besteht eine weitere Anstrengrmg des 
MPEG-2 -Audiostandardisierungskommittees darin, einen Multi- 
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kanalstandard xnit hSherer Qualit&t zu definieren, als sie 
erreichbar ist, wenn eine Ruckwartskompatibilitat zur MPEG-1 
gefordert wird. Dieser nicht-rUckwartskompatible Audio- 
standard gemaB MPEG-2 wird als MPEG-2 NBC bezeichnet. Das 
Ziel dieser Entwicklung besteht darin, RundfunkgualitSten 
gemaB den ITU-R-Anf orderungen bei Datenraten von 384 kb/s 
Oder darunter ftlr 5-kanalige Audiosignale, bei denen jeder 
Kanal die voile Bandbreite hat, zu erreichen* Der Audio- 
codierstandard MPEG-2 NBC vurde April 1997 vollendet. Das 
Scheiaa HPEG-2 NBC wird den Kern ftlr den bereits geplanten 
Audiostandard MPEG-4 bilden, welcher hShere Datenraten haben 
wird (tiber 40 kb/s pro Kanal) . Der NBC oder nicht rUckwarts 
kompatible Standard kombiniert den Codierwirkungsgrad einer 
hochauf losenden Filterbank, von Pradiktionstechniken und der 
redundanzreduz ier enden Huf f man-Codierung , um eine Audioco- 
dierung mit Rundfunkqualitat bei sehr niedrigen Datenraten 
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine 
detaillierte Darstellung des technischen Inhalts von MPEG-2 
AAC findet sich in M. Bosi, Brandenburg, S. Quackenbush, 
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. 
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio 
Coding", 101st AES Convention, Los Angeles 1996, Preprint 
4382. 

Effiziente Audiocodierverf ahren entfernen sowohl Redundanzen 
als auch Irrelevanzen von Audiosignalen. Korrelationen 
zwischen Audioabtastweirten und Statistiken der Abtastwert- 
darstellung werden ausgenutzt, vun Redundanzen zu entfernen. 
Frequenzbereichs- land Zeitbereichsmaskierungseigenschaften 
des menschlichen Gehorsystems werden ausgenutzt, un nicht- 
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der 
Frequenzgehalt des Audiosignals wird mittels einer Filter- 
bank in TeilbSnder unterteilt. Die Datenratenreduktion wird 
erreicht, indexn das Spektrum des Zeitsignals gemSfi psycho- 
akustischen Modellen quant isiert wird, und dieselbe kann ein 
ver lust loses Codierverf ahren umfassen. 
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Allgemein gesagt wird ein zeitkontinuierliches Audioslgnal 
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten. 
Das zeitdiskrete Audiosignal wird mittels einer Fenster- 
funktion gefenstert, urn aufeinanderfolgende BlScke oder 
Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter 
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird 
jeder Block von gefensterten zeitdiskreten Abtastwerten des 
Audiosignals in den Freguenzbereich transformiert, wobei 
beispielsweise eine modif izierte diskrete Cosinustransfor- 
nation (MDCT) verwendet werden kann. Die somit erhaltenen 
Spektralwerte sind noch nicht quantisiert und niissen demnach 
quantisiert werden. Das Hauptziel dabei besteht darin, die 
Spektraldaten derart zu quantisieren, dafl das Quant isie- 
rungsrauschen durch die quantisierten Signale selbst mas- 
kiert oder verdeckt wird. Dazu wird ein iia MPEG-AAC-Standard 
beschriebenes psychoakustisches Modell herangezogen, das 
unter Berucksichtigung der speziellen Eigenschaften des 
nenschlichen Gehors abhangig von dem vorliegenden Audiosi- 
gnal Maskierxingsschwellen berechnet. Die Spektralwerte wer- 
den nun derart quantisiert, daB das eingefUhrte Quant isie- 
rungsrauschen versteckt und somit unh&rbar wird. Das Quan- 
tisieren fiihrt also zu keinem horbaren Rauschen. 

In dem NBC-Standard wird ein sog. ungleichf5rmiger Quanti- 
sierer verwendet. Zusatzlich wird ein Verfahren verwendet, 
um das Quantisierungsrauschen zu formen. Das NBC-Verf ahren 
verwendet wie auch vohergegenene Standards die einzelne 
Verstarkung von Gruppen von Spektralkoef f izienten, welche 
als SkalenfaktorbSnder bekannt sind, Um so effizient wie 
moglich zu arbeiten, ist es wtinschenswert , in der Lage zu 
sein, das Quantisierungsrauschen in Einheiten zu formen, die 
an die Frequenzgruppen des menschlichen 6eh5rsystems m5g- 
lichst angelehnt sind. Es ist somit m8glich, Spektralwerte 
zu gruppieren, welche die Bandbreite der Frequenzgruppen 
sehr eng wiedergeben. Einzelne Skalenfaktorbander konnen 
mittels Skalenfaktoren in Stufen von 1,5 dB verstSrkt 
werden. Die Rauschf ormung wird erreicht, da verstSrkte 
Koeffizienten groBere Amplituden haben. Daher werden sie im 
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allgemeinen ein hoheres Signal/Rausch-VerhSltnis nach der 
Quant isierung zeigen. Andererseits benStigen gro6ere 
Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung 
zwischen den Skalenf aktorbandern wird implizit verSndert. 
Selbstverstandlich muB die Verstarkung durch die Skalenfak- 
toren in Decodierer korrigiert werden, Aus diesem Grund mtts- 
sen die Verstarkungsinformationen, die in den Skalenf aktoren 
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei- 
teninformationen zu dem Decodierer iibertragen werden. 

Nach der Quant isierung der in Skalenf aktorbandern vorliegen- 
den ggf. durch Skalenf aktoren verstSrkten Spektralwerte sol- 
len dieselben codiert werden. Das Eingangssignal in ein 
rauschloses Codienaodul ist somit der Satz von beispiels- 
weise 1024 quant isierten Spektralkoef f izienten. Durch das 
rauschlose Codiermodul werden die Satze von 1024 quanti- 
sierten Spektralkoef f izienten in Abschnitte oder "Sections" 
eingeteilt, derart, daft eine einzige Huf fman^Codiertabelle 
("Codebook") verwendet wird, um jeden Abschnitt zu codieren. 
Aus Codiereff izienzgriinden konnen Abschnittsgrenzen nur an 
Skalenf aktorbandgrenzen vorhanden sein, derairt, daB fiir 
jeden Abschnitt oder "Section" des Spektrums sowohl die 
LSnge des Abschnitts in Skalenfaktorbandern als auch die 
Huffman-Codiertabellenntumaer, die fiir den Abschnitt ver- 
wendet wird, als Seiteninformationen tibertragen werden 
miissen. 

Das Bilden der Abschnitte ist dynamisch und variiert typi- 
scherweise von Block zu Block, derart, daB die AnzeOil von 
Bits, die benotigt werden, um den vollen Satz von quanti- 
sierten Spektralkoef f izienten darzustellen, minimiert wird. 
Die Huffman-Codierung wird verwendet, um n-Tupel von quan- 
tisierten Koeff izienten darzustellen, wobei der Huffman-Code 
von einem von 12 Codiertabellen abgeleitet wird. Der maxi- 
male absolute Wert der quantisierten Koeff izienten, der von 
jeder Huffman-Codiertabelle dargestellt werden kann, und die 
Anzahl von Koeff izienten in jedem n-Tupel ftir jede Codierta- 
belle sind a priori festgelegt. 
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Der Sinn des Bildens der Abschnitte Oder Sections besteht 
also darin, Bereiche mit gleicher Signalstatistik zu grup- 
pieren, um mittels einer einzigen Huf fman-Codiertabelle fUr 
eine Section einen noglichst hohen Codiergewinn zu errei- 
Chen, wobei der Codiergewinn allgemein durch den Quotienten 
aus Bits vor der Codierung und Bits nach der Codieznng de- 
finiert ist. Mittels einer Codiertabellennuiamer ("Codebook- 
nmnber") , die in der fur das NBC-Verfahren verwendeten Bit- 
stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co- 
diertabellen verwiesen, welche fttr einen speziellen Ab- 
schnitt den hSchsten Codiergewinn ermoglicht. Der Ausdruck 
"Codiertabellennummer" soli in dieser Aniaeldung somit den 
Platz in der Bitstromsyntax bezeichnen, der fiir die Codier- 
tabellennummer reserviert ist. Um 11 verschiedene Codierta- 
bellennummern binar zu codieren, warden 4 Bit benotigt. Die- 
se 4 Bit mtissen fiir jeden Abschnitt, d. fur jede Gruppe 
von Spektralwerten, als Seiteninformationen iibertragen wer- 
den, damit der Decodierer zum Decodieren die entsprechende 
korrekte Codiertabelle auswShlen kann. 

Eine weitere Technik, die neuerdings Beachtung findet, ist 
die "Rauschsubstitution»» , deren Aspekte ausftihrlich in Do- 
nald Schulz: "Improving Audio Codecs by Noise Substitution", 
Journal of the Audio Eng. Soc. , Bd. 44, Nr. 7/8, S. 593 - 
598, Juli/August 1996, beschrieben sind. Wie bereits erwahnt 
wurde, verwenden herkommliche Audiocodieralgorithmen tibli- 
chesrweise Maskierungsef fekte des menschlichen Ohrs, um die 
Datenrate oder die Anzahl von zu (ibertragenden Bits ent- 
scheidend zu reduzieren. Haskierung bedeutet also, dafi eine 
Oder mehrere Frequenzkomponenten als Spektralwerte andere 
Komponenten mit niedrigeren Pegeln unhSrbar machen. Dieser 
Effekt kann auf zwei Arten und Weisen ausgenutzt werden. 
Zuerst massen Audiosignalkomponenten, die durch andere 
Komponenten maskiert werden, nicht codiert werden. Zweitens 
ist das EinfUhren von Rauschen durch die eben beschriebene 
Quantisierung erlaubt, wenn dieses Rauschen durch Kompo- 
nenten des ursprUng lichen Signals verdeckt wird. 
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Bei rauschhaften Signalen ist das menschliche Gehorsysteia 
nicht in der Lage, den exakten Zeitverlauf eines solchen 
Signals zu erfassen. Bei ublichen Algorithmen filhrte dies 
dazu, daB sogar die Wellenforro des weiBen Rauschens, welche 
fUr das menschliche Gehor nahezu irrelevant ist, codiert 
vurde. Ein gehorrichtiges Codieren von rauschhaltigen 
Signalen erfordert daher hohe Bitraten fUr Informationen, 
die nicht horbar sind, Venn keine speziellen Vorkehrungen 
getroffen verden. Falls jedoch rauschhaltige Komponenten von 
Signalen erfaBt und mit Inf onaationen Uber ihre Rauschpegel, 
Uber ihren Frequenzbereich oder ttber ihren zeit lichen Aus- 
dehnungsbereich codiert werden, kann eine solche Uberf lUssi- 
ge Codierung verringert werden, was zu auBerordentlich 
groBen Biteinsparungen ftihren kann, Diese Tatsache wird 
durch die Psychoakustik untermauert , die besagt, daB der 
Wahrnehmungseindruck von Rauschsignalen primSr von deren 
spektraler Zusammensetzung und nicht von der tatsachlichen 
Wellenform bestimmt wird. Dies ermoglicht also die Benutzung 
der Rauschsubstitutionstechnik bei der Datenreduktion von 
Audiosignalen. 

Der Codierer steht daher vor der Aufgabe, in dem gesamten 
Spektrum des Audiosignals rauschartige oder rauschhafte 
Spektralwerte zu finden bzw. zu erkennen. Eine Definition 
ftir rauschhafte Spektralwerte lautet wie folgt: Wenn eine 
Signalkonponente durch ihren Pegel, durch ihren Frequenzbe- 
reich und durch ihren zeitlichen Ausdehnungsbereich derart 
charakterisiert werden kann, daB sie ohne horbare Unter- 
schiede ftir das menschliche Gehorsystem durch ein Rauscher- 
setzungsverfahren rekonstruiert werden kann, wird diese 
Signalkomponente als Rauschen klassif iziert. Die Erfassung 
dieser Charakteristik kann entweder im Frequenzbereich oder 
im Zeitbereich durchgefiihrt werden, wie es in der zuletzt 
zitierten VerSff entlichung dargestellt ist. Das einfachste 
Verfahren besteht beispielsweise darin, tonale, d. h. nicht 
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre- 
quenz-Transformation verwendet wird, und indem stationare 
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Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt 
werden. Diese Spitzen warden als tonal bezeichnet, alles 
andere wird als rauschhaft bezeichnet. Dies stellt jedoch 
eine relativ grobe Rauscherfassung dar. Eine weitere Mog- 
lichkeit, zwischen rauschhaften und tonalen Spektralkom- 
ponenten zu tmterscheiden, besteht in der Verwendung eines 
Pradiktors fttr Spektralwerte in aufeinanderfolgenden 
Bldcken. Dabei wird eine PrSdiktion von einem Spektrum zu 
dem folgenden Spektrum, d. h. dem Spektrum, das dem nSchsten 
zeitlichen Block Oder Frame zugeordnet ist, durchgeftthrt. 
Unterscheidet sich ein prHdizierter Spektralwert von einem 
tatsSchlich durch Transformation emittelten Spektralwert 
des nachsten zeitlichen Blocks Oder Frames nicht oder nur 
wenig, so wird da von ausgegangen, daS es sich bei diesem 
Spektralwert um eine tonale Spektralkomponente handelt. 
Daraus kann ein TonalitatsmaB/iabgeleitet werden, dessen Wert 
einer Entscheidung zugrundeliegt, um tonale und rauschhafte 
Spektralwerte voneinander zu unterscheiden. Dieses Erfas- 
sungsverfahren ist jedoch lediglich ftlr streng station&re 
Signale geeignet. Es versagt dabei, Situationen zu erfassen, 
bei denen Sinussignale mit gering verSnderten Freguenzen 
tiber der Zeit vorhanden sind. Solche Signale erscheinen oft 
in Audioslgnalen, wie z. B. Vibratos, und es ist ftir den 
Fachmann of fensichtlich, daB diese nicht durch eine rausch- 
hafte Komponente ersetzt werden k5nnen« 

Eine weitere Moglichkeit zur Erfassung von rauschhaften 
Signalen besteht in der Rauscherfassung durch PrSdiktion im 
Zeitbereich* Hierfttr eignet sich ein angepafites Filter als 
PrSdlktor, welcher wiederholt angewendet werden kann, um 
eine line2a:e PrSdiktion durchzufiihren, wie es in der Technik 
hinreichend bekannt ist. Vergangene Audiosignale werden ein- 
gespeist und das Ausgangssignal wird mit dem tatsSchlichen 
Audioabtastwert verglichen. Im Fall eines kleinen Pradikti- 
onsfehlers kann Tonalitat angenommen werden. Um den Charak- 
ter unterschiedlicher Freguenzregionen zu bestimmen, d. h. 
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek- 
tralwerten eine rauschhafte Gruppe ist, mussen Zeit-Fre- 
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quenz-Transformationen sowohl des ursprttnglichen als auch 
des prSdizierten Signals durchgeftihrt werden. Dann kann ftir 
jede Freguenzgruppe ein Tonal ItStsmaB berechnet werden, in- 
dem die ur sprung lichen und die prSdizierten Werte mit- 
einander verglichen werden. Ein Hauptproblem dabei ist der 
begrenzte dynamische Bereich des PrSdiktors. Eine rausch- 
hafte Freguenzgruppe mit einem hohen Pegel dominiert den 
PrSdiktor aufgrund des resultierenden groBen Fehlers. Andere 
Freguenzregionen mit tonalen Komponenten konnten als rausch- 
haft Interpret iert werden. Dieses Problem kann durch Verwen- 
dung eines iterativen Algorithmus verringert werden, bei dem 
das Fehler signal norma lerweise einen geringeren Pegel als 
das Ursprungssignal hat und wieder durch einen weiteren PrS- 
diktor eingespeist wird, vonach beide prSdizierten Signale 
addiert werden • Weitere VerfsOiren sind in der Veroffentli- 
chung von Schulz ausgeftihrt. 

Die nun als rauschhaft klassif izierte Gruppe von Spektral- 
werten wird nicht wie iiblich quantisiert und Entropie- bzw. 
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta- 
belle) zum Empfanger iibertragen. Stattdessen wird nur eine 
Kennung zur Anzeige der Rauschsubstitution sowie ein Mafi f(ir 
die Energie der rauschhaften Gruppe von Spektralwerten als 
Seiteninformationen Obertragen. Im Empf finger werden dann flir 
die substituierten Koeff izienten Zufallswerte (Rauschen) mit 
der tibertragenen Energie eingesetzt. Die rauschhaften Spek- 
tralwerte werden also durch Zufallsspektralwerte mit ent- 
sprechendem EnergiemaB substituiert. 

Durch die iibertragung einer einzigen Energieinf ormation an- 
stelle einer Gruppe von Codes, d. h, mehrerer quantisierter 
und codierter Spektralwerte, fUr die quantisierten Spektral- 
koeffizienten sind erhebliche Dateneinsparungen moglich, Es 
ist offensichtlich, da6 die erreichbaren Datenrateneinspa- 
rungen vom Signal abhslngen. Handelt es sich z. B. um ein 
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen 
rauschhaften Gruppen, Oder mit transienten Eigenschaften, so 
wird eine geringere Datenrateneinsparung moglich sein, als 
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wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf- 
ten Gruppen codiert wird. 

Der eingangs beschriebene Standard MPEG-2 Advanced Audio 
Coding (AAC) unterstUtzt die Moglichkeit der Rauschsubsti- 
tution nicht. Die erheblichen Datenrateneinsparungen sind 
mit dem bisherigen Standard daher nicht moglich. 

Die Aufgabe der vorliegenden Erfindung besteht darin, den 
bestehenden Standard MPEG-2 AAC vua die Moglichkeiten der 
Rauschsubstitution derart zu erweitern, daB weder die grund- 
satzliche Codiererstruktur noch die Struktur der vorhandenen 
Bitstromsyntax angetastet wird. 

Diese Aufgabe wird durch ein Verfahren zvun Signalisieren 
einer Rauschsubstitution beiia Codieren eines Audiosignals 
gemSB Anspruch 1, durch ein Verfahren zum Codieren eines 
Audiosignals gemaB Anspruch 10 und durch ein Verfahren zum 
Decodieren eines Audiosignals gemaB Anspruch 11 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
dafi im Falle der DurchfUhrung einer Rauschsubstitution ftir 
ein rauschhaftes Band keine Quant isierung und Redundeuiz- 
Codierung Oder Huf fman-Codierung von Spektralwerten durch- 
geftthrt werden braucht. Stattdessen werden, vie es bereits 
beschrieben wurde, im Decodierer Rausch-Spektralwerte ftir 
eine rauschhafte Gruppe erzeugt, deren MaB fiir die Energie 
dem MaB fiir die Energie der Rausch-substituierten Spektral- 
werte entspricht. In anderen Worten werden fiir rauschhafte 
Gruppen keine Codiertabellen verwendet, da keine Redun- 
danz-Codierung stattfindet. Somit ist auch die Codier- 
tabellennummer, d. h. der entsprechende Platz in der Bit- 
stromsyntax des codierten Audiosignals, iiberf liissig. Dieser 
Platz der Bitstromsyntax, d. h. die Codiertabellennvimmer, 
kann nun gemSB der vorliegenden Erfindung dazu verwendet 
werden, anzuzeigen, dafi eine Gruppe rauschhaft ist und einer 
Rauschsubstitution unterzogen wird. Da, wie es ebenfalls 
erwahnt wurde, lediglich 12 Codiertabellen vorgesehen 
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verden, der Platz in der Bitstromsyntax jedoch 4 Bit 
betrSgt, mit denen insgesaint ein Zahlenbereich von 0-15 
binSr dargestellt werden kann, existieren sog. zusStzliche 
Codiertabellennummern, die auf keine Codiertabelle verwei- 
sen* Lediglich die Codiertabellennviinmern 0-11 verweisen 
auf eine Codiertabellennimmer. Bei einem bevorzugten Aus- 
ftilirungsbeispiel der vorliegenden Erfindung wird die Co- 
diertabellennummer 13 verwendet, urn dem Decodierer zu si- 
gnalisieren, daB die Gruppe, die in ihren Seiteninf orma- 
tionen die Codiertabellennummer 13, d. h. die zusStzliche 
Codiertabellennuiomer, aufweist, eine rauschhafte Gruppe ist 
und elner Rauschsubstitution unterzogen worden ist. Ftir 
Fachleute ist es jedoch of fensichtlich, daB auch die zu- 
satzliche Oder freie Codiertabellennummer 12, 14 oder 15 
eingesetzt werden kann. 

Wie es bereits weiter vorne dargestellt wurde, konnen die 
Spektralwerte, die nach einer Frequenzbereichstransf ormation 
des zeitlichen Audiosignals vorhanden sind, in Skalenfaktor- 
bander gruppiert werden, urn eine optimale Maskierung des 
Quantisierungsrauschens zu erreichen. Bei dem Standard 
MPEG-2 AAC sind zusStzlich mehrere Skalenfedctorbander in 
Abschnitte oder "Sections" gruppiert. Eine Section besteht 
daher zumeist aus mehreren Skalenf2dctorbandern. Das heiBt, 
daB eine Rauschsubstitution immer filr eine ganze Section 
signalisiert wird, d. h. ob die Rauschsubstitution aktiv 
Oder nicht aktiv ist. Aufgrund der Tatsache, daB die rausch- 
haften Skalenf aktorbander nicht quantisiert werden, mttssen 
auch keine Skalenfaktoren fiir dieselben berechnet oder 
Ubertragen bzw. codiert werden. Das heiBt, daB zusStzlich zu 
der Codiertabellennummer, welche die Rauschsubstitution an 
sich anzeigt, eine weitere Stelle im Bitstrom frei ist, 
welche anderweitig besetzt werden kann. Bei dem bevorzugten 
Ausftihrungsbeispiel der vorliegenden Erfindung wird an die 
Stelle, die fttr den Skalenf aktor in den Seiteninf ormationen 
zu einem Skalenf aktorband vorgesehen ist, ein MaB ftir die 
Energie der ersetzten Spektralkoeff izienten geschrieben. Wie 
es bereits erwShnt wurde, hangt die Wahrnehmung von Rausch- 
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signalen primar von deren spektraler Zusammensetzung und 
nicht von deren tatsachlicher Wellenform ab. Aus den Spek- 
tralwerten eines rauschhaften Skalenf aktorbandes wird somit 
ein Ma3 fur die Energie der Spektralwerte in dem rauschhaf- 
ten Skalenfaktorband berechnet. Diese GrSBe wird anstelle 
des Skalenf aktorbandes in die Seiteninf omnationen einge- 
tragen, ohne daB zusStzliche Seiteninf ormationen benbtigt 
werden Oder die Struktur der Bltstromsyntax verSndert werden 
muB. Diese zu fibertragende 6r5Be kann entveder die Gesamt- 
energie der Spektralwerte in einem rauschhaften Skalenfak- 
torband sein Oder die mittlere Energie, die beispielsweise 
auf einen Spektralwert oder eine Spektrallinie in deia Ska- 
lenfaktorband nonaiert ist. Bei dem bevorzugten Ausfuh- 
rungsbeispiel der vorliegenden Erfindung wird jedoch nicht 
die mittlere Energie sondern die Gesamtenergie als MaB ftir 
die Energie verwendet. 

Fiir die Ubertragung des MaBes fur die Energie der ersetzten 
Spektralwerte wird vorzugsweise die gleiche Auflosung ver- 
wendet, wie sie zur inversen Skalierung der iibertragenen 
spektralen Daten verwendet wird, d. h. eine logarithmische 
Skalierung mit einer AuflSsung von 1,5 dB beim AAC-Standard. 
jihnlich wie beim Layer-III-Verf ahren wird beim AAC-Verfahren 
zur Rekonstruktion der nicht-rauschhaften, d, h. tonalen, 
Spektralanteile a) die inverse Kennlinie des nichtlinearen 
Quantisierers auf den quantisierten Wert (X) der Spektralli- 
nie angewendet (Y = X^^^) , und dann b) eine "inverse Skalie- 
rung" entsprechend der Ubertragenen Skalenfaktoren durchge- 
ftihrt. (Z = Y X 2<sf^*>), wobei SF der Skalenf aktor des je- 
weiligen Skalenf aktorbandes ist, und wobei Z den requanti- 
sierten Spektralwert darstellt. Die AuflSsung betrSgt somit 
1,5 dB. 

Bei dem Verfahren zum Signalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals gemSB der vorliegenden 
Erfindung, bei dem fiir ein rauschhaftes Skalenfaktorband 
kein Skalenf aktor benotigt wird, sondern stattdessen das MaB 
fiir die Energie der substituierten Spektralwerte eingesetzt 
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wird, werden die selben Codiergesetze ftir das MaB fur die 
Energie der substituierten Spektralwerte eingesetzt wie sie 
sonst beim Skalenfaktor zur Anwendung kommen wilrden. Dies 
stellt eine vorteilhafte Nutzung bereits Vorhandener Resour- 
cen im AAC-Codierer dar und erfordert keinerlei zusStzliche 
Seiteninf ormationen . 

Eine weitere vorteilhafte Anwendung der Signalisierung der 
Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das 
menschliche Ohr ist in der Lage, eine Korrelation zvischen 
den Signalen bzw. KanSlen (L und R) eines Stereokanalpaars, 
welches bei AAC als "Channel Pair" bezeichnet wird, bis zu 
einen gewissen Grad wahrzunehiaen. Daher sollte auch im Falle 
einer Rauschsubstitution die Korrelation zwischen den beiden 
ersatz ten bzw. substituierten Rauschsignalen des Kanalpaars 
ahnlich zu der des Originalsignals sein. Skalenf aktorbander 
im linken und im rechten Kanal, welche die gleiche Mitten- 
freguenz haben, konnen beide rauschsubstituiert werden, wenn 
eine Rauschhaftigkeit erkannt wird. Werden beide Kanale 
rauschsubstituiert, und werden keine weiteren Vorkehrungen 
getroffen, so haben die im Codierer zuf^llig erzeugten 
Rausch-Spektralwerte zwar die gleiche Gesamtenergie wie im 
urspriinglichen Audiosignal, dieselben sind jedoch aufgrund 
des zufSlligen Erzeugens vollig unkorreliert. Dies ksmn 
unter bestimmten Umstanden zu horbaren Fehlern fiUiren. Urn 
dies zu vermeiden ist es moglich, die selben zufallig er- 
zeugten Rausch-Spektralwerte eines Skalenfaktorbandes fUr 
beide Kanale zu verwenden, was einer vollstMndigen Korrela- 
tion der rauschhaften Skalenf aktorbSnder des linken und 
rechten Kanals entspricht. 

Dabei wird gemSB einem bevorzugten AusfUhrungsbeispiel der 
vorliegenden Erfindung folgendermaBen vorgegangen: Fttr jedes 
Kanalpaar exist iert im AAC-Standard eine sog. Mitte/Seite- 
Haske (M/S-Maske) , welche im Standard selbst als "ms_used" 
(= ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein 
Bitvektor, der bandweise anzeigt, ob zwischen den beiden 
Kanalen eine M/S-Stereocodierung angewendet worden ist. 
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welche fUr Fachleute bekannt ist und elnfUhrend in J.D. 
Johnston, A.J. Ferreira: "Sinn-Difference Stereo Transform 
Coding", IEEE ICASSP 1992, S. 569 - 571, und auch im MPEG- 
AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei- 
ner Anzahl von Bits, wobei jedes Bit einem Skalenfaktorband 
zugeordnet ist. Wird in einem Skalenfaktorband eine M/S-Co- 
dierung verwendet, so wird ein Signalisierungsbit in der 
H/S-Haske in den Seiteninformationen gesetzt sein, das die 
M/S-Codierung dem Decodlerer mitteilt. Wird jedoch ein 
rauschhaftes Skalenfaktorband im linken sowie im rechten 
Kanal fiir die gleiche Mittenfreguenz der Skalenfaktorbander 
(ftir L und ftir R) erkannt, so findet selbstverstSndlich 
keine Mitte/Seite-Codierung statt. Das M/S-Bit fiir dieses 
Skalenfaktorband steht also ebenso wie die Codiertabellen- 
nummer und der Skalenfaktor in dem Bitstrom entsprechend der 
Bitstromsyntax zur Verfiigung, um etwas anderes zu signali- 
sieren. In diesem Fall kann das Bit der M/S-Maske fur das 
rauschhafte Skalenfaktorband beider Kanale verwendet werden, 
um anzuzeigen, ob fiir den linken und rechten Kanal unabhan- 
gige Rausch-Spektralwerte Oder Rauschvektoren erzeugt werden 
sollen, was dem Normalfall entsprechen wiirde, oder ob der 
gleiche Rauschvektor fiir sowohl den linken als auch rechten 
Kanal in dem rauschhaften Skalenfaktorband verwendet werden 
soli. 

Wie es fiir Fachleute bekannt ist, kSnnen bei nichtrausch- 
haften Skalenfaktorbandern die Skalenfaktoren mittels einer 
Differenzcodierung codiert werden. Fiir einen entsprechenden 
Skalenfaktor in einem folgenden Skalenfaktorband muB nicht 
wieder der gesamte Wert des Skalenfaktor s codiert werden, 
sondern lediglich die Differenz desselben vom vorhergehen- 
den. Dies wird als Differenzcodierung bezeichnet. Diese 
Differenzcodierung wird bei einem bevorzugten Ausfiihrvuigs*- 
beispiel der vorliegenden Erfindung ebenfalls zum Codieren 
des Mafies fiir die Energie der Spektralanteile in einem 
rauschhaften Skalenfaktorband verwendet. Damit muB ftir ein 
folgendes Skalenfaktorband nicht wieder das gesamte MaB der 
Energie sondern lediglich die Differenz des aktuellen vom 
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vorhergehenden codiert werden, was wiederum zu Biteinsparun- 
gen AnlaB gibt. SelbstverstSndlich muB ixoiner ein erster Aus- 
gangswert vorhanden sein, der jedoch auch ein fester von 
vorneherein vorgegebener Wert sein kann. Dieses VerfeJiren 
der Differenzcodierung wird daher besonders vorteilhaft 
sein, wenn aufeinanderfolgende SkalenfaktorbMnder Frames 
rauschhaft sind. 
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Patentansprtiche 

Verfahren zuia Signalisieren einer Rauschsubstitution 
beim Codieren eines Audioslgnals, mit folgenden Schrit- 
ten: 

Transformieren eines zeltlichen Audiosignals in den Fre- 
quenzbereich, \m Spektralverte zu erhalten; 

Gruppieren der Spektralwerte in Gruppen von Spektralwer- 
ten; 

Erfassen, ob eine Gruppe von Spektralwerten eine rausch- 
hafte Gruppe ist; 

falls eine Gruppe nicht rauschhaft ist, Zuweisen einer 
Codiertabelle aus einer Mehrzahl von Codiertabellen zum 
Redundanzcodieren der nicht rauschhaften Gruppe,. wobei 
mittels einer Codiertabellennummer auf die der Gruppe 
zugewiesene Codiertabelle verviesen wird; und 

falls eine Gruppe rauschhaft ist, Zuweisen einer zusMtz- 
lichen Codiertabellennuiomer, die nicht auf eine Codier- 
tabelle verweist, zu dieser Gruppe, um zu signalisieren, 
dafi diese Giruppe rauschhaft ist und daher nicht redun- 
d€Lnz-codiert wird. 

Verfahren nach Anspruch 1, bei dem die Gruppen von Spek- 
tralwerten Abschnitte (Sections) sind, wobei eine Co- 
diertabellennuiQiaer fiir nicht rauschhafte Abschnitte und 
eine zusStzlich Codiertabellexmuniner fUr rauschhafte Ab- 
schnitte vergeben werden. 

Verfahren nach Anspruch 2, 

bei dem ein Abschnitt eines Oder mehrere Skalenfaktor- 
bander aufweist, wobei jedeia Skalenf aktorband ein Ska- 
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lenfaktor zugeordnet ist; und 

bei dem im Falle elnes rauschhaften Skalenfaktorbandes 
ein Mafl fiir die Energie der Spektralwerte in dem rausch- 
haften Ska lenfaktor band anstelle eines Skalenfaktors co- 
diert wird. 

4. Verfahren nach Anspruch 3, bei dem das MaB fiir die Ener- 
gie der Spektralwerte in einer rauschhaften Gruppe die 
auf einen Refer enzwert normierte mittlere Energie der- 
selben in einem Skalenfsdctorband ist. 

5. Verfahren nach Anspruch 3, bei dem das Mafi fiir die Ener- 
gie die Gesamtenergie der Spektralwerte in dem rausch- 
haften Skalenfaktorband ist. 

6. Verfahren nach Anspruch 3 oder A, bei dem zum Codieren 
des MaBes fiir die Energie der rauschhaften Spektralwerte 
in dem Skalenfaktorband die selbe Skalierung verwendet 
wird, die iiblicherweise zum Codieren eines Skalenfaktors 
eines Skalenfaktorbandes verwendet wird, das kein 
rauschhaftes Skalenfaktorband ist. 

7. Verfahren nach einem der Anspriiche 3-6, bei dem die 
Codierung des MaBes fiir die Energie der Spektralwerte in 
rauschhaften Skalenfaktorbandern eine Dif ferenzcodierung 
ist. 

8. Verfahren nach einem der Anspriiche 1-7, 

bei dem das Audiosignal ein Stereoaudiosignal ist, 

bei dem eine Mitte/Seite-Codierung zweier KanMle des 
Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen- 
weise anzeigbar ist, und 



bei dem im Fall von frequenzmSfligen entsprechenden 
rauschhaften Gruppen beider KanSlle durch die Mitte/Sei- 
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te-Maske anzeigbar ist^ ob unterschiedliche Oder gleiche 
Rausch-Spektralwerte fur beide KanSle beim Decodieren 
eines decodierten Audiosignals zu verwenden sind. 

9. Verfahren nach eineia der vorhergehenden Anspriiche, bei 
dem das Erfassen^ ob eine Gruppe von Spektralwerten eine 
rauschhafte Gruppe ist, laittels des zeitlichen Audiosi- 
gnals Oder mittels der Spektralwerte des zeitlichen Au- 
diosignals Oder mittels sowohl des zeitlichen Audiosi- 
gnals als auch der Spektralwerte des zeitlichen Audio- 
signals durchgeftihrt wird, 

10. Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten: 

Signalisieren einer Rauschsubstitution nach einem der 
Ansprtiche 1-9; 

Berechnen eines MaBes fiir die Energie einer rauschhaften 
Gruppe ; 

Eintragen des MaBes fiir die Energie in der Gruppe zuge- 
ordnete Seiteninformationen; 

Eintragen der zusStz lichen Codiertabellennummer in die 
der Gruppe zugeordneten Seiteninformationen; 

Quantisieren der nichtrauschhaften Gruppen und Codieren 
der quantisierten nichtrauschhaften Gruppen unter Ver- 
wendung der Codiertabelle, auf die durch die Codier- 
tabellennummer verwiesen wird, wShrend fiir rauschhafte 
Gruppen keine Quant isierung oder Codierung stattfindet; 
und 

Bilden eines Bitstroms, der quantisierte und codierte 
nichtrauschhafte Gruppen sovie fUr rauschhafte Gruppen 
ein MaB fiir die Energie der Spektralwerte der rausch- 
haften Gruppen und die zusatzliche Codiertabellennummer 
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zur Slgnalisierting der rauschhaften Gruppen aufweist. 

11. Verfahren zum Decodieren eines codierten Audlosignals 
lait folgenden Schrltten: 

Empfangen elnes Bitstroms; 

Redundanz -Decodieren von nichtrauschhaften Gruppen auf- 
grund einer durch eine Codiertabellennuimner angezeigten 
Codiertabelle und Requantisieren von redundanz-decodier- 
ten, quantisierten Spektralwerte ; 

Erfassen einer rauschhaften Gruppe von Spektralwerten 
aufgrund einer zusatz lichen Codiertabellenniuaiaer, die 
einer solchen Gruppe zugeordnet ist; 

Erfassen eines MaBes fur die Energie der Spektralwerte 
in der rauschhaften Gruppe aufgrund von der Gruppe zu- 
geordneten Seiteninf ormationen; 

Erzeugen von Rausch-Spektralwerten fiir die rauschhafte 
Gruppe, wobei das HaB der Energie der Rausch-Spektral- 
werte in der rauschhaften Gruppe glelch den Mafi fiir die 
Energie von Spektralwerten der rauschhaften Gruppe in 
dem ursprtinglichen Signal ist; 

Transformieren der requantisierten Spektralwerte und der 
Rausch-Spektralwerte in den Zeitbereich, xm ein deco- 
diertes Audiosignal zu erhalten. 

12. Verfahren gemafi Anspruch 11, bei dem das Erzeugen der 
Rausch-Spektralwerte durch Erzeugen von Zufallszahlen 
Oder durch Erhalten derselben aus einer Tabelle statt- 
findet, wobei die addierte Energie der Rausch-Spektral- 
werte dem Mafi der Energie der Spektralwerte der rausch- 
haften Gruppe des urspriinglichen Audlosignals ent- 
spr icht . 
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13. Verfahren nach Anspruch 11 Oder 12, das ferner folgende 
Schritte aufweist: 

Erfassen einer Mitte/Seite-Maske fiir Stereoaudlosignale; 

aufgrund der Mitte/Selte-Kaske fiir Stereoaudlosignale, 
Verwenden identischer Rausch-Spektralwerte ftir entspre- 
chende rauschhafte Gruppen beider KanSle, oder Erzeugen 
zweier unabhSngiger Gruppen von Rausch-Spektralwerten 
fiir bei KanSle. 
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